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基于 用 户 兴 趣 的 跨 网 络 用 户 身 份 识别 算法 
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摘 要 : 跨 网 络 用 户 身份 识别 的 研究 不 但 为 多 网 络 数 据 融合 提供 了 依据 ， 而 且 在 用 户 身份 监管 、 谣 言 控制 等 领域 均 
有 广泛 应 用 价值 。 针 对 现 有 算法 对 用 户 兴 趣 在 跨 网 络 用 户 身份 识别 中 作用 的 忽视 以 及 时 间 复 杂 度 高 的 问题 ， 提 出 了 
基于 用 户 兴 趣 的 跨 社 交 网 络 用 户 身份 识别 算法 〈ULUI) 。 首 先 利 用 分 块 (blocking) 思想 对 用 户 节 点 进行 初 第 选 ， 以 
提升 算法 效率 降低 时 间 复 杂 度 ; 其 次 根据 用 户 产 生 内 容 (user generated content，UGC) 和 用 户 社交 关系 对 用 户 兴趣 
进行 建 模 ， 并 计算 兴趣 相似 度 作 为 身份 识别 的 依据 ; 最 后 利用 半 监 督学 习 的 方法 进行 跨 网 络 用 户 身份 识别 。 通 过 在 
真实 社交 网 络 中 进行 实验 ， 结 果 表 明 UI-UI 算法 能 有 效 识 别 跨 网 络 用 户 ， 且 准确 率 和 召回 率 稳定 ， 运 行 时 间 显 著 减 
Rs 

关键 词 : 跨 网 络 用 户 身份 识别 ; 分 块 ; 用 户 兴趣 

中 图 分 类 号 : TP301.6 doi: 10.3969/j.issn.1001-3695.2018.08.0617 


User identification across social networks based on user interests 


Deng Shiqi, Li Lei, Shi Huaji 


(School of Computer Science & Communication Engineering, Jiangsu University, Zhenjiang Jiangsu 212013, China) 


Abstract: The research of user identification across social networks not only provides a basis for multi-network data fusion, 
but also has a wide range of applications in user identity monitoring, rumor control and other fields. Aiming at the problem 
of ignoring the role of user interest in user identification across social networks and the high time complexity, this paper 
proposed a user identity algorithm based on user interest (UI-UI) . Firstly, the proposed algorithm filtered the user nodes by 
Blocking to improve the efficiency of the algorithm and reduce the time complexity. Secondly, it modeled the user's interest 
according to the user generated content(UGC) and user social relations, and used the similarity of user interest as the basis 
for user identification. Finally, it used the method of semi-supervised learning for user identification. Experiments on real 
social networks show that UI-UI algorithm can effectively identify cross-network users, and both the accuracy and recall 
rate of the algorithm are stable, besides, the running time is significantly reduced. 
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jE 系 的 方法 8- 切 通 常 利 用 用 户 的 邻 域 特征 计算 待 识别 节点 之 间 
加 的 跨 网 络 相似 度 。 
随 着 互联 网 的 迅猛 发 展 以 及 智能 终端 的 日 益 普及 ， 为 了 进一步 提升 算法 的 准确 率 ， 众 多 学 者 开始 尝试 将 上 


Twitter、Facebook、 新 浪 微 博 和 人 人 网 等 社交 网 络 已 经 成 为 ” 述 三 类 信息 进行 融合 。Kong 等 人 03 将 该 问题 形式 化 定义 为 
人 们 信息 获取 与 交流 的 主要 渠道 。 人 们 会 因 不 同 社交 需求 同 。” 销 链 接 (anchor links) 预 测 问 题 ， 7 UGC 的 文本 相似 度 、 
参与 多 个 网 络 , 一 份 社交 媒体 研究 报告 指出 截至 2014 年 已 。 时 空 信息 和 网 络 结构 ， 然 后 训练 二 分 类 器 进行 实现 。Zhang 
52% 的 在 线 成 人 使 用 了 两 个 或 更 多 的 社交 网 站 。 识 别 出 这 ”等 人 4 提取 用 户 属 性 特征 和 网 络 结构 特征 ， 充 分 考虑 局 部 一 
分 路 网络 用 户 在 不 同 网 络 中 的 账号 就 是 跨 网 络 用 户 身 份 识 。 致 性 和 全 局 一 致 性 构建 了 基于 能 量 的 异 质 网 络 用 户 身 份 识别 
别 问题 ， 解 决 该 问题 为 各 类 挖掘 和 学 习 任 务 提供 了 新 的 机 遇 ”模型 。Liu 等 人 0 利用 了 用 户 属性 、UGC 以 及 社交 行为 等 各 
0 挑战 。 跨 网 络 用 户 身份 识别 技术 可 以 获取 用 户 全 面 的 社交 种 可 用 资源 提出 了 一 种 半 监 督 多 目标 统一 框架 。 
行为 模式 , 为 用 户 行为 深入 分 析 以 及 广告 精准 投放 提供 依据 ; 融合 多 种 信息 的 算法 一 定 程度 上 提升 了 准确 率 ， 然 而 过 
解决 推荐 系统 中 数据 稀疏 和 冷 启动 的 问题 ， 为 用 户 提供 个 性 ，” 度 严 苛 的 匹配 条 件 导 致 算法 的 召回 率 不 高 ， 同 时 加 重 了 计算 
化 推荐 服务 0-3; 反映 网 站 的 发 展 兴衰 以 及 帮助 分 析 用 户 在 网 ”的 负担 。 文 献 [16] 指 出 ， 用 户 在 网 络 中 的 社交 行为 ， 如 关注 
络 之 间 的 迁移 模式 册 ， 除 此 之 外 其 在 商业 、 网 络 安全 、 信 息 “行为 或 信息 发 布 行为 都 真实 地 体现 了 用 户 的 兴趣 倾向 。 尽 管 
检索 等 领域 也 有 广泛 的 应 用 。 用 户 会 根据 不 同 的 目的 参与 网 络 ， 旺 他 们 的 社交 行为 是 由 行 
钢 有 跨 网 络 用 户 身 份 识别 算法 通常 分 为 三 类 : 基于 用 户 。” ”为 习惯 和 特性 驱使 的 ， 兴 趣 倾向 是 他 们 潜在 意识 的 表现 ， 在 
属性 的 方法 B94 利用 用 户 名 、 头像 等 属性 字段 的 距离 或 者 频率 不同 的 网 络 中 会 保持 相对 稳定 。 而 用 户 不 同 的 个 性 使 得 用 户 
作为 判断 依据 进行 身份 识别 ; 基于 UGC 的 方法 [3 利用 UGC 兴趣 成 为 用 户 之 间 相 互 区 分 的 有 效 信息 。 由 此 ， 挖 掘 并 分 
发 布地 点 、 时 间 、 写 作风 格 等 信息 进行 识别 ， 而 基于 用 户 关 ”用 户 兴 趣 对 于 识别 不 同 网 络 中 属于 同一 用 户 的 账号 有 着 非常 
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该 算法 首先 利 
， 只 考虑 同一 数据 1 
配 次 数 ， 降 低 


块 


录用 定稿 


要 的 意义 。 


为 此 ， 本 文 提出 了 基 ] 
算法 (UI-UI), 旨 在 依据 用 户 兴 


趣 术 


本 文 所 


1 
1.1 


分 的 


交互 倾向 对 用 
日 似 度 ， 最 后 利用 UI-UI 算法 进行 账号 匹配 。 


提 算 法 综合 性 能 显著 


用 户 称 为 跨 网 络 


用 户 的 社交 网 络 。 
源 网 络 和 


时 间 复杂 度 ， 其 


用 分 块 思想 将 待 识别 的 
块 内 账号 的 匹配 可 能 性 ， 减 少 盲目 
次 根据 


户 兴 趣 进行 建 模 ， 并 计算 待 匹 配 账号 之 


于 用 户 兴 趣 


的 跨 网 络 用 户 身份 识别 
趣 实现 跨 网 络 用 户 身份 识别 。 
账号 划分 到 不 同 的 数据 
匹 
质 向 和 
间 的 兴 
实验 表明 ， 


3 UGC 主题 


问题 描述 与 相关 定义 
跨 网 络 用 户 身份 识别 


定义 1 用 户 身份 


是 高 ， 验 证 了 算法 的 


效 性 。 


人 
o 


实 个 体 在 网 络 中 


j 户 身份 是 现实 世界 中 可 以 相互 区 


定义 2 跨 网 络 


用 户 。 


有 的 账号 。 
户 。 在 两 个 社 


交 网 络 中 均 拥 有 账号 的 


源 网 络 和 目标 网 络 分 别 是 两 个 完整 的 、 存 在 一 定 跨 网 络 


两 者 的 


定义 3 


为 


向 图 ， 分 别 用 


G(V,E,) 和 G 


为 两 者 的 账号 节点 集合 ， 


系 集合 。 
如 源 网 络 内 部 的 节点 4 指向 节点 v 表 示 4 转发 了 "的 消 
息 ， 即 对 v 发 布 的 消息 感 兴趣 。 


定义 4 跨 网 络 


从 


对 。 


v 与 目标 网 络 G, 中 的 节点 w 是 


标 网 络 中 挖掘 
的 节点 ， 即 寻找 两 个 网 络 中 属 了 


体 定 义 如 下 : 
标 网 络 。 将 源 网 络 和 


标 网 络 抽象 
其 中 V 和 VW 分 别 


(WV,B) 表示 ， 


E, 和 互 分 别 为 两 者 的 节点 间 转 发 关 


假如 存在 一 个 节点 匹配 对 


账号 属 了 


F 同一 现实 用 户 。 


j 户 身份 识别 。 跨 网 络 用 
与 源 网 络 中 的 节点 属于 同 


站 身份 识别 指 
跨 网 络 用 户 
j 户 的 节点 匹配 


F 同 一 跨 网 络 / 


a) 
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j 户 名 相似 度 。 


j 户 名 是 


EA 
一 
ee 


是 利用 价值 很 高 的 属性 信息 ， 已 有 
] 户 名 识别 跨 网 络 用 户 身 份 的 方法 ， 


最 易 获 取 
了 仅 利 用 上 


学 者 920 研 究 
并 取得 了 较 好 
本 文采 用 


的 效果 。 
Jaro-Winkler 相似 度 BC 计 算 用 户 名 相似 度 。 


Jaro-Winkler 是 一 种 字符 串 匹 配 算法 ， 对 于 计算 短 字符 串 相 


似 度 非 常 有 效 


， 计 算 结果 为 1 表示 两 个 字符 串 完 


匹配 ， 结 


果 为 0 则 两 者 没有 相似 性 。 则 两 个 字符 串 s 和 s, 的 
Jaro-Winkler 距离 计算 如 式 (1〉 所 示 。 
0,m=0 
We ea 2 ,m>0 (1) 
3||s| |ss| m 
其 中 : |s| 和 |s| 分 别 是 两 字符 串 的 长 度 ; mr 是 两 者 匹配 的 字 
符 数 ; ! 是 换 位 的 字符 数目 。 

b) 性 别 、 地 址 等 属性 。 

对 于 性 别 、 地 址 等 属性 值 有 限 且 固定 的 属性 ， 本 文采 用 
精确 匹配 的 方法 ， 若 两 个 属性 值 完 全 匹配 则 相似 度 为 1， 否 
则 为 0。 

c) 空 属性 值 。 

户 的 隐私 设置 可 能 导致 很 多 属性 信息 不 可 取 ， 本 文 为 
这 些 空 属 性 值 添加 一 个 缺 省 标记 。 为 缺 省 的 属性 值 添加 特殊 
标记 “none”， 并 设 定 其 与 其 他 属性 值 的 相似 度 为 1， 表 示 该 
缺 省 属性 值 有 可 能 与 任何 属性 值 相 同 。 


2.2 用 户 兴 趣 建 模 


vw) ,说 明 源 网 络 G, 中 的 节点 


匹配 的 ， 即 v 和 w 代 表 的 两 个 


1.2 基于 先 验 节点 的 跨 网 络 用 户 身份 识别 算法 


络 中 身份 


法 


定义 5 


利 | 


先 验 节点 。 先 验 节 点 priori nodes， 
已 被 识别 的 节点 。 
身份 已 知 的 先 验 节点 识别 网 络 中 身份 未 知 节 点 的 方 


PN) 是 网 


| 做 基于 先 验 节点 的 跨 


网 络 用 


户 身份 识别 算法 。 此 类 算法 


的 突出 优点 是 时 间 复 杂 度 明显 低 于 无 先 验 节点 的 算法 。 


本 文 将 源 网 络 和 目标 


和 PN, 。 


基于 用 户 兴趣 的 跨 网 络 用 户 身份 识别 算法 UI-UI 


2 
2.1 


中 的 
模 神 
之 前 先 对 
扩展 性 。 
实体 识别 领域 中 为 避免 对 整个 数据 集 进行 箔 卡尔 集 级 别 
的 计算 提出 了 分 块 技术 07381。 其 通过 代价 较 小 的 预 处理 ， 将 


分 块 处 理 


网 络 的 先 验 节点 集 分 别 表 示 为 PN 


现 有 算法 在 识别 跨 网 络 用 户 身 份 时 大 多 需要 对 两 个 网 络 


上 交 网 络 中 。 


可 能 匹配 的 数据 对 


数 
较 ， 


居 对 象 分 配 到 不 同 的 块 中 ，》 
氏 时 间 复 杂 度 。 
借鉴 这 种 思想 ，UI-UI 算法 


从 而 降 


较 容易 的 用 户 属 怕 


网 络 和 


全 部 节点 进行 两 再 


5 匹配， 计算 量 很 大 且 难 
针对 这 一 缺点 ， 
节点 进行 初 筛选 ， 以 降低 时 间 开 


以 扩展 到 大 规 
UI-UI 算法 在 进行 身份 识别 
销 并 增强 算法 的 可 


| 象 分 配 到 同一 个 数据 块 中 ， 不 可 能 匹配 的 


进行 块 内 数据 对 象 之 间 的 比 


E 信 息 对 网 络 中 


标 网 络 中 用 户 属性 相似 度 大 于 阔 值 的 节点 万 


首先 利用 稀 玻 性 较 低 、 获 取 
FP 的 节点 进行 分 块 处 理 ， 将 源 
分 在 一 


个 数据 块 内 。 其 中 各 属性 相似 度 的 计算 方法 如 下 : 


了 研究 表明 ， 用 户 在 社交 网 络 上 会 对 某 些 特定 主题 的 内 
容 表现 出 更 强 的 关注 ， 不 同 的 用 户 对 同一 主题 的 偏好 程度 不 
司 ， 且 同一 用 户 的 兴趣 倾向 在 不 同 网 络 中 的 表现 是 相似 的 。 
姑 此 用 户 兴 趣 的 差异 可 以 作为 用 户 之 间 区 分 的 标志 。 

方面 ， 用 户 会 在 社交 网 络 中 发 表 体 现 自己 兴趣 的 言论 
或 参与 感 兴趣 内 容 的 讨论 ， 因 此 合理 利用 UGC 中 的 信息 能 
够 有 效 建 模 用 户 兴趣 ， 另 一 方面 ， 用 户 会 选择 与 兴趣 相投 的 
用 户 进行 交互 ， 因 此 用 户 的 社交 行为 也 能 体现 用 户 兴 趣 。 针 
对 上 述 分 析 ， 本 文 分 别 利用 UGC 和 用 户 社交 行为 对 用 户 兴 
趣 建 模 ， 并 由 此 定义 兴趣 相似 度 作为 跨 网 络 用 户 身 份 识别 的 
依据 。 


2.2.1 主题 兴趣 建 模 


UGC 是 | 


] 户 发 表 在 社交 网 络 上 的 原创 内 容 ， 文 献 [16] 指 


出 语言 特征 已 


征 可 以 用 来 识 


被 证 明 能 够 体现 人 格 的 差异 ， 即 用 户 兴 趣 倾向 


的 不 同 ; 文献 [22] 也 证 明了 用 户 在 网 络 中 发 表 言 论 的 语言 特 


别 其 在 不 同 网 络 中 的 账号 。 


信息 进行 建 模 


为 了 获取 用 
配 (Latent Dirichlet 


户 的 主题 兴趣 ， 本 文 先 利用 潜在 狄 利克 雷 分 
allocation, LDA) 模 型 23 对 UGC 中 的 文本 
， 得 到 z 个 虚拟 主题 ， 以 及 用 户 在 各 虚拟 主题 


下 的 概率 分 布 
趣 相似 度 。 
定义 6 
和 weG, 的 主 


T,={th,, t2,.…, £ 


局 中 : Dr (T,, 


Simop (vw) e[0,1 


越 高 。 


7 ， 再 基于 JS 散 度 9 计算 用 户 之 间 的 主题 兴 


主题 兴趣 相似 度 。 若 主题 个 数 为 z, 且 节 点 veG. 


题 概率 分 布 分 别 表示 为 T={t 区 … 6 和 
计 ， 则 两 者 的 主题 兴趣 相似 度 如 式 〈2) 所 示 。 
Simop (v,w)=1— Ds (T,,T,) 

T+T, 
2 


(2) 


1 T,+T, 
-站 ec )+ Dr (T,,— 7 5 


TD= 记 gaogt 为 两 个 分 布 的 KL 散 度 ， 且 有 
] ， 该 值 越 大 ， 则 节点 ?和 的 主题 兴趣 相似 度 
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2.2.2 交互 兴趣 建 模 


根据 同 质 理 


论 p3， 用 户 会 选择 与 其 “相似 ”的 其 他 用 户 


进行 交互 。 
转发 功 角 能 ， 


两 者 属于 同一 用 


这 种 交互 机 制 社交 网 络 为 用 户 提 供 了 关注 和 
也 使 得 用 户 的 社交 行为 成 为 挖掘 用 户 兴趣 的 一 


了 效 途 径 。 ,村 有 算法 & 5 认为 两 个 账号 的 关注 列表 越 相似 ， 


一 定 的 时 效 性 和 


户 的 可 能 性 越 高 。 然 而 用 户 的 关注 行为 具有 
即 用 户 的 兴趣 随时 间 而 变化 ， 且 用 


和 王 意 性 ， 


的 可 能 


不 是 因为 兴趣 ， 而 是 出 于 互惠 性 29 或 其 他 


目的 。 因 此 本 文采 用 更 能 体现 


j 户 交互 兴趣 的 转发 关系 1 


进行 建 模 ， 并 利 


定义 7 交 


用 式 (3) 计算 节点 间 的 交互 兴趣 相似 度 。 


互 兴趣 相似 度 。 基 于 Jaccard 系数 2 引 ， 节 点 
veG, 和 weG, 的 交互 兴趣 相似 度 定 义 如 下 : 
je (1, NPN, ) NT, NPN,) 
Sm (VW) (1, SPN,) J(L, SPN,) G3) 
7 转发 过 的 消息 所 属 的 节点 集 ， 同 理 及 为 节 


其 中 : 到 是 节点 
点 w 转 发 过 的 消息 所 属 的 节点 集 ; 
目标 网 络 的 先 验 节 点 集 。 


交互 的 
2.2.3 兴趣 相似 度 计 算 


法 四 


的 获取 不 利 ， 


户 越 相 


根据 前 文 对 


如 下 定义 节点 兴 


PN, 和 PN, 分 别 为 源 网 络 和 
交互 兴趣 相似 度 越 大 两 个 节点 各 自 
似 ， 两 者 属于 同一 跨 网 络 用 户 的 概率 越 高 。 


主题 兴趣 相似 度 与 交互 兴趣 相似 度 的 计算 ， 
好 相似 度 : 
Simin (U,V)= Qsimo, (Uv)+(1— 0)sim (u,v) (4) 


于 社交 网 


络 中 用 户 的 主题 倾向 是 较为 稳定 的 ， 而 在 算 


一 


开始 时 可 利 


C=0.618 。 


2.3 


UI-UI 算法 
UI-UI 算法 


相应 的 数据 块 ， 


的 节点 的 集合 即 


其 候选 节点 集中 


配 ， 


让。 


节点 集 PN,、 


UI-UI 


点 w 作 为 节点 v 的 匹配 节点 ， 将 选 出 的 目标 网 络 中 的 节点 w 
作为 X 


待 识别 的 节 


若 匹 配 到 的 


具体 算法 流 


7 
节点 为 "， 则 匹配 成 功 ， 
并 将 v 和 w 分 别 加 入 先 验 节点 集 PN, 和 PN; 
思想 不 断 更 新 节 


的 先 验 节点 数量 较 少 ， 对 于 用 户 交 互信 息 


所 以 在 此 以 黄金 分 割 比例 设置 调和 因子 


首先 根据 用 户 属性 信息 进行 分 块 处 理 ， 得 到 
目标 网 络 中 与 源 网 络 节点 ”同属 一 个 数据 块 
为 节点 ”的 候选 节点 集 ， 然 后 计算 节点 "与 
各 节点 的 兴趣 相似 度 ， 选 取 相 似 度 最 高 的 节 


点 ， 同 样 根据 兴趣 相似 度 在 源 网 络 中 寻找 匹 
将 匹配 对 ww) 输出 ， 
最 后 采取 友 代 的 
点 匹配 对 集 ， 直 至 无 新 匹配 对 生成 ， 算 法 结 


程 如 算法 1 所 示 。 


算法 1 


基于 用 


户 兴趣 的 跨 网 络 用 


户 身份 识别 算法 


输入 : 源 网 


络 G.(V.,E,)、 目 标 网 络 G(V,E)、 


源 网 络 先 验 


理 。 


以 折 
pa 


输出 : 节点 


标 网 络 先 验 节点 集 PN 。 


匹配 对 集 P 。 


a) 利 用 | | 户 


属性 信息 对 两 个 网 络 中 的 节点 进行 分 块 处 


b) 对 于 源 网 络 G, 中 的 待 识别 节点 "s 员 -PN ,根据 分 块 结 
果 确 定 其 候选 节 


点 集 ， 并 计算 其 与 候选 节点 集 各 节点 之 间 的 


节 相 似 度 sim 。 


0) 选 择 与 市 


配 节点 。 


d) 将 


中 待 匹配 节点 w 


标 网 络 看 做 源 网 络 进 行 反 向 验证 ， 即 将 


点 v 兴 趣 相 似 度 最 高 的 节点 w 作 为 v 的 待 匹 


标 网 络 
作为 待 识别 节点 ， 在 源 网 络 中 寻找 匹配 。 


(a) 若 节点 峡 死 配 到 节点 >， 则 认为 匹配 成 功 ， 并 将 ”加 
入 PN,，w 加 入 PN,，Q(,w) 加 入 P; 

(b) 若 节点 w 未 匹配 到 节点 v， 视 为 匹配 失败 ， 返 回 步骤 
b)， 继 续 识 别 其 他 待 识别 节点 。 


6) 循环 兴 代 至 无 新 的 节点 匹配 对 生成 ， 输 出 集合 节点 匹 
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配对 和 集 P 。 
2.4 算法 时 间 复 杂 度 分 析 

假定 源 网 络 GO, 及 ) 和 目标 网 络 GV.,E) 中 节点 集 的 大 
小 分 别 为 = 和 区 = ， 且 两 个 网 络 中 先 验 节点 集 大 小 分 别 
为 |PN|=p 和 |PN|=q ， 显 然 有 P<m4<<n， 此 时 两 个 网 络 中 待 
识别 节点 的 个 数 分 别 为 4=m-P 和 b=n-g。 
UI-UI 算法 时 间 复 杂 度 的 计算 分 为 分 块 处 理 、 主 题 建 模 
及 节点 匹配 三 个 部 分 。 分 块 处 理 过 程 的 时 间 复 杂 度 为 O(mn); 
主题 建 模 过 程 的 时 间 复 杂 度 为 O(m+n); 而 在 进行 节点 匹配 
时 ， 需 要 计算 每 个 待 识别 节点 与 其 候选 节点 集中 全 部 节点 的 
兴趣 相似 度 。 假 设 B: 和 B; 分 别 为 源 网 络 和 目标 网 络 的 一 组 对 
应 的 数据 块 ， 其 中 ie[lL,#]， ikeN ， 了 且 |8|+|B2 
tI+..4 避 [5 这样 一 来 每 轮 选 代 只 需 计算 每 个 待 识 史 1 节 
点 与 其 对 应 数据 块 中 节点 的 兴趣 相似 度 ， 假 设 最 大 的 一 对 数 
据 块 大 小 分 别 为 加 |=oarl8l…|Bt=r<a 和 
辟 |=waax{lB…|B 作 = <5 , 则 计算 兴趣 相似 度 的 时 间 复 杂 度 为 
Of(r)。 同 理 可 得 反 向 认证 阶段 的 时 间 复 杂 度 也 为 O(r1))。 因 
此 UI-UI 算法 在 节点 匹配 阶段 的 时 间 复 杂 度 为 O(71)。 

综合 上 诉 分 析 可 知 ，UI-UI 算法 的 总 时 间 复 杂 度 为 
O(mn)。 


+...+|Bt|=a ， 


3 ”实验 


3.1 实验 数据 
本 文 将 国外 流行 社 


交 网 站 Facebook 和 Twitter 作为 实验 
对 象 以 验证 算法 性 能 。 为 获取 两 个 网 络 中 真实 的 用 户 身份 信 
息 ， 本 文 首先 将 提供 了 用 户 在 各 个 社交 网 站 上 的 个 人 主页 链 
接 的 Google+ 网 站 作为 收集 信 息 的 基站 ， 从 中 收集 了 56 107 
个 用 户 账 号 ， 并 从 其 用 户 属 性 信息 中 提取 其 在 Facebook 和 
Twitter 中 的 非 空 且 有 效 的 主页 链接 ; 然后 再 分 别 从 Facebook 
和 Twitter 中 收集 对 应 用 户 的 属性 信息 、 前 200 条 《不 足 200 
取 全 部 ) 推 文 信 息 和 转发 信息 。 获 取 的 数据 集 有 具体 情况 如 表 
1 所 示 。 


表 1 Facebook 和 Twitter 网 络 数据 
Table 1 Facebook and Twitter network data 
节点 数 转发 连 边 数 跨 网 络 
5 649 12 997 
8 373 44 376 
3.2 实验 评价 标准 
本 文采 用 准确 率 precision、 召 回 率 recall、 综 合 指标 Fl 
以 及 运行 时 间 running time 作为 算法 性 能 的 衡量 标准 。 其 中 
前 三 个 指标 (简称 为 PRF 值 ) 的 相关 定义 如 下 : 


网 络 
Facebook 


户 数 


. 1 193 
Twitter 


recision= 
. D+ 力 


Ip 
tp+fn 


2* precision* recall 


recall= 


Fl= 
precision+ recall 


其 中 : wp 是 指 算法 识别 出 的 正确 账号 个 数 ， 放 是 指 算法 识别 
错误 账号 个 数 ， 记 是 指 算法 未 识别 出 的 正确 账号 个 数 。 
3.3 实验 结果 与 分 析 
为 保证 实验 结果 的 可 靠 性 ， 避 免 偶然 性 ， 本 文 实验 数据 
均 为 算法 在 相应 条 件 下 重复 10 次 后 的 平均 值 。 同 时 文中 实验 
均 假设 只 存在 一 对 一 匹配 ， 即 一 个 用 户 在 一 个 网 络 中 至 多 只 
能 有 个 账 号 o 
3.3.1 先 验 节点 的 影响 
于 Facebook 和 Twitter 网 络 都 较为 稀 下 C， 


选取 度数 很 
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小 的 节点 作为 先 验 节点 会 产生 冷 启动 问题 ， 所 以 本 文 只 选择 实验 设置 UI-UI 算法 中 p=50 , 先 验 节点 比例 为 8%;FRUI 
入 度 不 小 于 P 的 节点 作为 先 验 节点 ， 并 设置 先 验 节 点 的 选取 算法 中 先 验 节点 比例 也 设置 为 8%; 而 MNA 算法 是 监督 学 习 


比例 从 2%~10% 分 别 进行 实验 。 图 1 展示 了 p=50 时 算法 性 能 。” 算法 无 须 设置 先 验 节点 。 实 验 结果 如 图 3 所 示 。 
随 先 验 节点 比例 变化 的 影响 ;图 2 展示 了 先 验 节点 比例 为 8% |__ mu 
时 ，2 变化 对 算法 性 能 的 影响 。 从 | 国 ww 
一 Precision 0.8] 
1.0 ®— Recall 
F1 
0.6-. 
mn " . 0.4]] 
0.5 
下 Precision Recal Pi 
。 ， 3 PREF 值 对 比 
0 
先 验 节点 数 百分比 Fig.3 PRF comparison 
图 1 p=50 时 ，PRF 值 随 先 验 节点 数 的 变化 如 图 3 所 示 ，UI-UI 算法 的 准确 率 和 召回 率 都 优 于 另 两 
Fig. 1 PRF changes with number of PN when p=50 种 算法 ， 综合 评价 指标 Fl 值 比 FRUI 算法 提升 了 11.1%， 
5 比 MNA 算法 提升 了 8.8%。 
网 | FRUI 算法 准确 率 明 显 低 于 另 两 种 算法 ， 这 是 因为 该 算 
RE 法 仅 利用 用 户 的 好 友 关 系 进行 身份 识别 ， 无 法 区 分 网 络 中 大 
0 d/o 量 结构 相似 的 节点 , 而 UI-UI 和 MNA 算法 都 融合 了 UGC 信 
。 息 和 用 户 交 互信 息 ， 大 大 增加 了 节点 的 辨识 度 ， 准 确 率 显著 
& 是 升 。 但 是 MNA 算法 利用 UGC 的 时 空 信息 进行 识别 , 这 类 
。 言 息 在 社交 网 络 中 非常 稀疏 ， 虽 然 相 比 纯 拓 扑 算法 提升 了 一 
021 定 准 确 率 ， 但 算法 召回 率 很 低 ， 也 难以 扩展 到 大 规模 的 社交 
1 而 元 网 络 中 。 相 比 FRUI 和 MNA 这 两 种 对 比 算 法 而 言 ，UI-UI 算 
p 法 按 弃 了 传统 利用 好 友 关 系 挖掘 用 户 交 互信 息 的 方式 ， 而 采 
图 2 先 验 节点 比例 为 8% 时 ，PRF 值 随 P 的 变化 用 了 更 能 体现 用 户 兴 趣 偏好 的 转发 关系 进行 设计 ， 同 时 利用 
Fig.2 PRF changes with P when proportion of PN is 8% 主题 建 模 方法 挖掘 用 户 隐 藏 在 UGC 信息 中 的 兴趣 偏好 ，; 
据 图 1 所 示 ， 当 先 验 节 点 比例 为 2% 时 ， 算 法 的 准确 率 确 率 和 召回 率 都 有 明显 提升 。 据 图 3 所 示 ，UI-UI 算法 的 识 
和 召回 率 都 很 低 ，Fl 值 仅 为 0.325。 这 是 由 于 当先 验 节点 较 别 准确 率 超 出 FRUI 算法 19.7%， 超 出 MNA 算法 9.3%; 召 
少时 ， 可 用 来 识别 节点 的 信息 不 v 增加 节点 兴趣 的 辨识 度 提 可 率 超 出 FRUI 算法 4.4%， 超 出 MNA 算法 8.4% 。 实 验 结果 


升 ， 各 项 指标 都 明显 上 升 。 同 时 可 以 注意 到 算法 的 准确 率 在 证 明了 用 户 兴趣 对 于 识别 跨 网 络 用 户 身 份 的 有 效 性 。 
先 验 节点 比例 为 8 多 时 达到 峰值 0.834， 而 此 后 继续 增加 先 验 本 文 用 总 运行 时 间 来 评估 算法 的 效率 。 如 图 4 所 示 ， 相 
节点 数 算法 的 准确 率 略 有 下 降 ， 原 因 是 当先 验 节点 过 多 时 ， 同 数据 集 上 的 实验 结果 表明 UI-UI 算法 的 运行 时 间 比 FRUI 
反而 会 导致 与 待 识别 节点 兴趣 相似 度 一 样 的 节点 变 多 ， 这 些 。 算法 略 高 ， 但 明显 低 于 MNA 算法 ， 少 于 MNA 算法 所 需 时 
节点 难以 区 分 对 匹配 结果 造成 干扰 。 间 的 一 半 。 这 是 由 于 FRUI 算法 仅 考 虑 了 网 络 拓扑 结构 ， 而 
实验 结果 表明 ， 当 先 验 节点 比例 大 于 等 于 8% 时 ULUI UI-UI 算法 融入 了 UGC 信息 , 主题 建 模 的 过 程 增 加 了 一 定 的 
算法 均 能 取得 0.81 以 上 的 准确 率 以 及 0.67 以 上 的 召回 率 。 时 间 开 销 。 但 对 比 同样 融合 多 种 网 络 信 息 的 MNA 算法 ， 

如 图 2 所 示 ，p=0 时 算法 的 准确 率 和 召回 率 仅 分 别 为 UI-UI 算法 中 分 块 预 处 理 为 算法 的 匹配 过 程 节约 了 大 量 时 


0.245 和 0.308， 因 为 不 限制 先 验 节点 的 最 低 度数 会 导致 一 部 司 。 
分 度数 很 低 的 节点 被 选中 ， 这 些 低 度数 的 节点 不 利于 节点 交 [|_ my 
互 兴趣 的 获取 ， 一 方面 使 得 节点 交互 兴趣 辨识 度 不 高 ， 识 别 ”] 国 必 
准确 率 低 ; 另 一 方面 产生 冷 启动 问题 使 得 算法 召回 率 受 到 很 250] 
大 影响 。 而 随 着 2 值 的 增加 算法 性 能 明显 提升 ， 且 算法 的 各 击 | 
项 指标 在 p=50 后 趋 于 稳定 。 本 
实验 结果 证 明了 设 定 先 验 节点 最 低 度 数 的 有 效 性 ， 当 设 | 
置 p>50 时 ，UI-UI 算法 能 达到 0.81 以 上 的 准确 率 以 及 0.62 tm] 
以 上 的 召回 率 。 sj 
3.3.2 算法 性 能 对 比 | 
为 了 进一步 验证 算法 性 能 ， 本 文 将 提出 的 UI-UI 算法 与 el 
两 个 现 有 识别 效果 较 好 的 算法 进行 性 能 比较 。 第 一 种 对 比 算 妈 4 运行 时 间 对 比 
法 是 FRUI 算法 00， 其 利用 了 共有 已 知 好 友 数 量 实现 跨 网 络 Fig.4 Running time comparison 
节点 的 一 对 一 匹配 ; 第 二 种 对 比 算法 是 MNA 算法 031， 该 算 综 上 所 述 ，UI-UI 算法 相 比 现 有 的 跨 网 络 身 份 识 别 算法 
法 提取 了 UGC 的 时 空 信息 以 及 文本 相似 度 ， 并 训练 了 SVM 准确 率 和 召回 率 更 优 ， 且 时 间 开 销 更 少 ， 更 适用 于 大 规模 的 


进行 身份 识别 。 社交 网 络 。 
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现 有 算法 没有 考虑 到 人 类 本 质 上 的 兴趣 偏好 对 于 跨 网 络 
身份 识别 的 有 效 性 ， 为 此 本 文 利用 用 户 发 布 的 文本 信息 以 及 
其 转发 关系 中 隐 含 的 兴趣 倾向 对 用 户 兴 趣 进 行 建 模 ， 以 此 定 
义 节 点 跨 网 络 的 相似 性 ， 此 外 ， 算 法 在 节点 匹配 之 前 加 入 了 
节点 初 筛选 阶段 ， 通 过 用 户 属性 对 于 节点 进行 分 块 处 理 ， 减 
少 了 大 量 匹 配 计算 ， 降 低 了 运行 时 间 ， 使 算法 更 适用 于 大 规 
模 社交 网 络 。 实 验 结果 表明 ， 本 文 所 提 算 法 在 综合 性 能 和 运 
行 时 间 上 均 上 共有 明显 的 优势 ， 验 证 了 用 户 兴 趣 是 识别 跨 网 络 
用 户 身份 的 一 种 有 效 特征 。 当 然 ， 本 文 仍 有 许多 值得 进一步 
研究 的 地 方 ， 如 用 户 兴趣 的 建 模 方式 还 有 很 多 ， 如 何 更 加 精 
确 有 效 地 提取 用 户 兴 用 户 的 兴趣 是 有 一 定时 效 性 的 ， 如 
何 将 时 间 因 素 融 入 到 用 户 兴 趣 建 模 中 等 。 
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